In [1]:
import os

import plotly.io as pio
from plotly.io._base_renderers import IFrameRenderer


class CumulIFrameRenderer(IFrameRenderer):
    def build_filename(self):
        max_number = 0

        if not os.path.exists(self.html_directory):
            os.mkdir(self.html_directory)

        for file in os.listdir(self.html_directory):
            number = file.split('_')[1]
            number = number.split('.')[0]
            number = int(number)
            max_number = max(max_number, number)

        return os.path.join(self.html_directory, f'figure_{max_number+1}.html')


pio.renderers['iframe'] = CumulIFrameRenderer()

# √âl√©ments de d√©finition
√Ä l‚Äôintersection des statistiques et de l‚Äôinformatique, le machine learning se pr√©occupe de la mod√©lisation des donn√©es.
Les grands principes de ce domaine ont √©merg√© des statistiques fr√©quentistes et bay√©siennes, de l‚Äôintelligence artificielle ou encore du traitement du signal.
Le machine learning est la science de l‚Äôapprentissage automatique d‚Äôune fonction pr√©dictive √† partir d‚Äôun jeu d‚Äôobservations de donn√©es √©tiquet√©es ou non.

Ce chapitre se veut une **introduction aux concepts et aux premi√®res d√©finitions qui fondent le machine learning**, et en propose plusieurs approches, d√©crites et illustr√©es.

## Donn√©e, jeu de donn√©es et caract√©ristiques
Une `donn√©e` est une quantit√© ou une observation mesurable.
Cela peut √™tre la taille d'un individu, une image, du texte... √Ä peu pr√®s n'importe quoi !

On peut r√©colter plusieurs donn√©es et les regrouper dans un jeu de donn√©es afin d'en √©tudier le fonctionnement d'un ph√©nom√®ne que l'on souhaiterai caract√©riser.
Par exemple, on pourrait mesurer la taille des adultes en France et regrouper ces mesures dans un `jeu de donn√©es` (*dataset* en anglais).
On dit alors que les donn√©es sont des `exemples` du dataset (ou *sample* en anglais).

Traditionnellement, on visualise un dataset √† l'aide d'un tableau o√π les lignes sont les diff√©rents exemples et les colonnes sont les diff√©rentes mesures r√©cup√©r√©es sur chaque exemple.

| Individu ID 	| Taille 	| Couleur des cheveux 	| Couleur des yeux 	|
|-------------	|--------	|---------------------	|------------------	|
| 1           	| 1.75   	| Brun                	| Marron           	|
| 2           	| 1.92   	| Blond               	| Bleu             	|
| ...         	|        	|                     	|                  	|

Comme vous le voyez, il est possible de r√©colter plusieurs donn√©es pour un m√™me individu.
Lorsqu'un exemple a plusieurs donn√©es attribu√©es, on parle alors de ses donn√©es comme de ses `caract√©ristiques` (*features* en anglais).
On dit que les exemples sont de dimension 3 dans notre cas, car ils ont 3 caract√©ristiques.
Dans le cas d'une image de 64x64 pixels, cette image peut √™tre consid√©r√© comme un exemple avec 4096 caract√©ristiques !

## Le jeu de donn√©es : la source de connaissances
En machine learning, tout part d'un jeu de donn√©es.
Les donn√©es sont la clef de la connaissance, elles sont une image du fonctionnement du monde au moment o√π elles ont √©t√© r√©colt√©es.
Voici quelques petits exemples pour illustrer l'utilit√© des donn√©es :
* Mesurer la trajectoire d'un lancer de balle dans l'espace permet de mieux comprendre le fonctionnement de la gravit√©.
* Lire l'ensemble des livres du XVIIe si√®cle permet de mieux comprendre comment s'exprimaient les populations de cette √©poque.
* Comparer les achats de tous les clients d'un site marchand permet de mieux s√©lectionner les items √† recommander aux futurs clients.

A travers les donn√©es, on peut d√©celer des comportements statistiques int√©ressants et en tirer de l'information.
**L'objectif du machine learning est d'extraire les connaissances contenues dans un jeu de donn√©es et de les synth√©tiser au sein d'un mod√®le.**

Cependant, attention √† ne pas tirer de conclusions hatives √† partir d'un jeu de donn√©es.
Les donn√©es ne sont pas neutres par essence.
La fa√ßon dont elles ont √©t√© r√©colt√©es, le contexte, et des donn√©es manquantes externes peuvent totalement alt√©rer l'information que vous avez extrait d'un jeu de donn√©es.
Ainsi, des biais statistiques peuvent √™tre ins√©r√©s et pointer vers des conclusions dramatiquement fausses.
Par exemple, on pourrait se dire que le chocolat rend plus intelligent car la plupart des personnes ayant re√ßu un prix nobel en [consomment](https://www.youtube.com/watch?v=z_cACapt3Hc).
Cependant, c'est oubli√© le facteur important ici : les pays les plus riches sont √† la fois ceux qui investissent le plus dans la recherche et aussi ceux qui ont le plus acc√®s au chocolat.

## Le mod√®le : la synth√®se des connaissances
Une fois les donn√©es r√©colt√©es, on souhaite g√©n√©ralement traduire les informations qui nous int√©ressent en un `mod√®le`.
**Le mod√®le synth√©tise les connaissances contenues dans le jeu de donn√©es.**
Il exprime math√©matiquement les relations du dataset, sous forme de fonction.
Pour revenir sur les exemples pr√©c√©dents, un mod√®le :
* Caract√©rise l'√©volution de la position d'une balle apr√®s son lancer.
* Capture la distribution de probabilit√© que suivent les mots de la langue fran√ßaise du XVIIe.
* Regroupe les items d'un site marchand qui sont achet√©s par les m√™mes cat√©gories de personnes.

Le mod√®le permet d'expliquer les donn√©es.
Il n'a pas √† √™tre parfait *(et il ne l'est jamais en pratique)*, mais on esp√®re qu'il sera suffisamment bon pour mieux comprendre les relations qu'il caract√©rise ou simplement pour nous √™tre utile pour la t√¢che souhait√©e.

## Apprentissage automatique
On sait que le but du ML est de produire un mod√®le qui capture les relations d'un dataset.
Pour y arriver, on dit que l'on `entra√Æne` un mod√®le sur un jeu de donn√©es, √† l'aide d'un `algorithme d'apprentissage automatique` (*Machine Learning algorithm*).

Le domaine du ML regroupe beaucoup de mod√®les et d'algorithmes diff√©rents dans le but de couvrir un maximum de datasets possibles.
Conna√Ætre les cas d'applications de chaque mod√®le et algorithme d'apprentissage est un bon moyen pour rapidement d√©ployer des solutions √† un probl√®me donn√©.

Afin de bien apprendre, un mod√®le a besoin de beaucoup de donn√©es.
C'est pourquoi il est courant de rencontrer des mod√®les entra√Æn√©s √† partir de millions d'images ou de documents.
Plus un dataset contient d'exemples divers et plus il sera possible de mod√©liser des relations complexes entre nos donn√©es.

## T√¢ches classiques r√©solues avec le ML
Nous pouvons maintenant nous int√©resser aux diff√©rentes t√¢ches classiques r√©solues √† l'aide du ML.
On va uniquement regarder les grandes familles de probl√®mes et donner quelques exemples pour chacune d'entre elles.

### Classification
Le but d'une t√¢che de classification est de **d√©terminer la classe** des exemples d'un dataset (on parle de *variable qualitative*).
Par exemple, on souhaite faire un mod√®le qui est capable de pr√©dire si un mail est frauduleux ou pas.
Dans ce cas, nous aurons besoin d'un ensemble de mails avec des informations sur le contenu du mail ainsi que sur son envoyeur et la classe du mail (¬´ frauduleux ¬ª ou ¬´ non frauduleux ¬ª).
Dans ce type d'exemples, on parle classification binaire car il y a uniquement deux classes.

Il existe de nombreux types de t√¢ches de classification que vous pouvez rencontrer dans l'apprentissage automatique et des approches sp√©cialis√©es de la mod√©lisation qui peuvent √™tre utilis√©es pour chacune.
Ces approches seront √©tudi√©es plus en d√©tail √† la suite du cours.

### R√©gression
Dans le domaine de l'apprentissage statistique, la r√©gression cherche √† **pr√©dire une quantit√©** (on parle de *variable quantitative*).
La r√©gression s'articule autour d'algorithmes simples, qui sont souvent utilis√©s dans la finance, l'investissement et autres, et √©tablit la relation entre une seule variable d√©pendante de plusieurs variables.
Pr√©dire le nombre de clics sur un lien ou pr√©dire le rendement d‚Äôun plant de ma√Øs sont des exemples de regression classiques.
Le nombre √† pr√©dire peut √™tre un nombre continu comme discret

In [2]:
import numpy as np
import plotly.express as px
import plotly.graph_objects as go
import matplotlib.pyplot as plt
from sklearn.linear_model import LinearRegression


x = np.linspace(0, 10, 100)
a = 1.5
b = 0.3
rng = np.random.default_rng(0)
y = a * x + b + rng.standard_normal(len(x))
X = x.reshape(-1, 1)

model = LinearRegression()
model.fit(X, y)

a_learn = model.coef_[0]
b_learn = model.intercept_

y_pred = model.predict(X)

fig = go.Figure()
fig.add_trace(
    go.Scatter(
        x=x, y=y,
        name=f'a={a:.2f}, b={b:.2f} | r√©el',
        mode='markers'
    )
)
fig.add_trace(
    go.Scatter(
        x=x, y=y_pred,
        name=f'a={a_learn:.2f}, b={b_learn:.2f} | pr√©diction',
        mode='lines')
)
fig.update_layout(
    title=f"Exemple d'une r√©gression lineaire",
    xaxis_title="x",
    yaxis_title="y",
)
fig.show('iframe')

Le mod√®le de r√©gression le plus connu est la de r√©gression lin√©aire.

### Clustering
Le probl√®me d‚Äôapprentissage non supervis√© le plus fr√©quent est le probl√®me de partitionnement de donn√©es (en anglais *clustering*).
C‚Äôest l‚Äô√©tape o√π l‚Äôon essaie de **s√©parer les donn√©es en groupes**.
Par rapport √† la classification, ici il n'y a pas de classes bien d√©finies.
Les groupes sont construits sur le tas, √† partir des similarit√©s entre les donn√©es.

In [None]:
import plotly.express as px
import matplotlib.pyplot as plt

N = 1000
fig = go.Figure()

rng = np.random.default_rng(0)
X = rng.normal(size=(N, 2), loc=-2)
fig.add_trace(
    go.Scatter(
        x=X[:,0], y=X[:,1],
        mode='markers',
        name='Groupe 1',
    )
)

X = rng.normal(size=(N, 2), loc=2)
fig.add_trace(
    go.Scatter(
        x=X[:,0], y=X[:,1],
        mode='markers',
        name='Groupe 2',
    )
)

fig.update_layout(
    title=f"Exemple d'un clustering avec deux groupes",
    xaxis_title="x1",
    yaxis_title="x2",
)
fig['data'][0]['showlegend'] = True
fig.show('iframe')

Le clustering permet d'identifier des groupes homog√®nes parmi une population donn√©e.

### Association
La recherche des r√®gles d‚Äôassociation est une m√©thode dont le but est de **d√©couvrir des relations ayant un int√©r√™t entre deux ou plusieurs variables** stock√©es dans de tr√®s importantes bases de donn√©es.
Les algorithmes d‚Äôassociation sont particuli√®rement adapt√©s pour explorer des bases de donn√©es volumineuses ou complexes.
Par exemple, ils peuvent identifier la probabilit√© de co-occurrence d‚Äô√©l√©ments dans une collection de donn√©es.

Quelques exemples:
* Association entre alimentation et apparition de maladies.
* Association entre g√©notype et ph√©notype.
* Association entre activations de neurones et comportement.

### R√©duction de dimensions
Un second cas d‚Äôapprentissage non supervis√© concerne la r√©duction de dimensions. 
Il d√©signe ainsi toute m√©thode permettant de **projeter des donn√©es issues d‚Äôun espace de grande dimension dans un espace de plus petite dimension**.
Quand on parle de la dimension d'une donn√©e, on parle du nombre de features qui lui sont attach√©es.
Dans cette situation on peut voir la r√©duction de dimension comme une √©tape de compression de l'information contenue dans nos donn√©es.
Si cette compression est bien faite, on va garder uniquement les informations importantes et retirer le bruit.

:::{figure-md} reduc-dim-fig
<img src="src/reduc_dim_exemple.png" alt="Schema d'une reduction de dimension">

Sch√©ma d'une r√©duction de dimension.
:::

On emploie ici le mot ¬´ dimension ¬ª au sens alg√©brique, i.e. la dimension de l‚Äôespace vectoriel sous-jacent aux valeurs des vecteurs de descripteurs.
La r√©duction de dimensionnalit√© permet de r√©duire la complexit√© d‚Äôun probl√®me d‚Äôapprentissage automatique √† plusieurs niveaux :
* D‚Äôun point de vue **th√©orique**, cela entra√Æne automatiquement une am√©lioration des propri√©t√©s de stabilit√© et de robustesse des algorithmes.
* D‚Äôun point de vue **pratique**, cela simplifie la r√©solution du probl√®me d‚Äôoptimisation associ√©, en r√©duisant l‚Äôespace des solutions.

En d‚Äôautres termes, r√©duire la dimensionnalit√© limite le nombre de possibilit√©s √† tester, ce qui permet de traiter les donn√©es plus rapidement.
Ce gain de temps est fonction de la d√©pendance de la complexit√© temporelle de l‚Äôalgorithme par rapport √† la dimension.

## Diff√©rents types d'entra√Ænements
L'approche ML pour r√©soudre un probl√®me va d√©pendre de la t√¢che en question et des donn√©es disponibles.
Ainsi, il est important de distinguer trois grandes familles d'algorithmes d'entra√Ænement.

### Apprentissage supervis√©
Avec l‚Äôapprentissage supervis√©, **le mod√®le est entra√Æn√© √† reproduire une sortie donn√©e**.
Par exemple, il peut apprendre √† distinguer les photos de chien et de chat apr√®s qu‚Äôon lui ait montr√© des milliers de photos des deux cat√©gories et en pr√©cisant pour chaque image √† quelle cat√©gorie elle appartient.
Ou bien, il peut apprendre √† traduire le fran√ßais en chinois apr√®s avoir vu des centaines de milliers d‚Äôexemples de traduction fran√ßais-chinois. 

Concr√®tement, on a un dataset $\mathcal{D} = (x_i, y_i)_1^N$ de $N$ couples o√π $x_i$ est un ensemble de `caract√©ristiques` (*features*) et $y$ l'`√©tiquette` (*label* ou *target*) correspondante.
En reprenant l'exemple pr√©c√©dent, un $x_i$ pourrait √™tre les pixels d'une image de chien et $y_i$ la cat√©gorie chien.
On entra√Æne alors un mod√®le $f$ tel que $f(x) \approx y$.

:::{figure-md} supervise-exemple-fig
<img src="src/supervise_exemple.png" alt="Schema d'une classification chien vs chat">

Sch√©ma d'une classification chien vs chat.
:::

Dans le cadre de l‚Äôapprentissage supervis√©, la machine conna√Æt d√©j√† les r√©ponses qu‚Äôon attend d‚Äôelle.
Elle travaille √† partir de donn√©es √©tiquet√©es.
Reprenons l‚Äôexemple d‚Äôune application destin√©e √† reconna√Ætre les chiens et les chats.
Pour l‚Äôentra√Æner, on lui pr√©sente des images √©tiquet√©s comme ¬´ chien ¬ª ou ¬´ chat ¬ª.
Par des techniques issues des statistiques et des probabilit√©s, l‚Äôalgorithme comprend alors quelles sont les caract√©ristiques qui permettent de classer ces images dans chacune des cat√©gories.
Ainsi, au fur et √† mesure qu‚Äôon lui pr√©sentera de nouvelles images, il pourra les identifier, en donnant un score de probabilit√©.

Ce type d'apprentissage est particuli√®rement adapt√© pour r√©soudre les probl√®mes de classification et de r√©gression.

### Apprentissage non supervis√©
Qu‚Äôest-ce que l‚Äôapprentissage non supervis√© ?
C‚Äôest de l‚Äôapprentissage sans superviseur, tout simplement‚Ä¶ üòä
Plus s√©rieusement, l‚Äôapprentissage non supervis√© consiste √† **apprendre √† un mod√®le des informations sans l'aide d'√©tiquette**, c‚Äôest-√†-dire sans superviseur (d‚Äôo√π le nom, vous l‚Äôaurez compris).

Ce genre d'algorithme utilise uniquement un dataset $\mathcal{D} = (x_i)_1^N$ contenant un ensemble de $N$ donn√©es $x$.
En fonction de la t√¢che √† r√©soudre, un tel apprentissage aura pour but de projeter les $x_i$ dans un espace vectoriel de dimension plus faible ou bien √† regrouper les $x_i$ qui se ressemblent entre eux.

L'apprentissage non supervis√© est particuli√®rement adapt√© pour r√©soudre les probl√®mes de clustering, d'association et de r√©duction de dimension.

### Par renforcement
Le Reinforcement Learning ou l‚Äôapprentissage par renforcement (RL) est la science de la prise de d√©cision.
Il s‚Äôagit **d‚Äôapprendre le comportement optimal dans un environnement donn√©** pour obtenir une r√©compense maximale.
Ce comportement optimal s‚Äôacquiert par des interactions avec l‚Äôenvironnement et l‚Äôobservation de ses r√©actions.

Le probl√®me du Reinforcement Learning implique qu‚Äôun agent explore un environnement inconnu pour atteindre un objectif.
Le RL est bas√© sur l‚Äôhypoth√®se que tous les objectifs peuvent √™tre d√©crits par la maximisation de la r√©compense cumulative attendue.
L‚Äôagent doit apprendre √† sentir et √† perturber l‚Äô√©tat de l‚Äôenvironnement en utilisant ses actions pour obtenir une r√©compense maximale.
Un agent dans un √©tat actuel S apprend de son environnement en interagissant avec ce dernier par le moyen d‚Äôactions.
Suite √† une action A, l‚Äôenvironnement retourne un nouvel √©tat S‚Äô et une r√©compense R associ√©e, qui peut √™tre positive ou n√©gative.

Il est utile lorsque l'on sait r√©compenser un bon comportement mais qu'on ne saurait dire quelles sont les actions optimales d'un probl√®me (difficile ou impossible d'avoir des √©tiquettes comme en supervis√©).
Par exemple aux √©checs on sait quand un agent a bien jou√© (a-t-il perdu ou gagn√© la partie ?).
Cependant, on ne sait pas donner quel est le coup optimal √† n'importe quelle situation du jeu.

Le Reinforcement Learning a affich√© des performances spectaculaires ces derni√®res ann√©es.
Il a permis √† des programmes d‚Äôapprendre par eux-m√™mes dans des environnements complexe des strat√©gies extr√™mement puissantes et robustes.
Sous l‚Äôimpulsion de DeepMind, ces algorithmes ont r√©volutionn√© l‚Äôintelligence artificielle dans de nombreux domaines, notamment dans le domaine des jeux, allant des jeux d‚Äôarcade (Agent57) et des jeux de plateau (AlphaGo) jusqu‚Äôaux jeux-vid√©os (AlphaStar).

:::{figure-md} rl-illustration
<img src="src/illustration_RL.png" alt="Interaction entre l'agent RL et l'environnement.">

Illustration entre l'agent RL et l'environnement.
:::

Un cours est d'ailleurs enti√®rement d√©di√© √† ce vaste sujet.

## Conclusion

* Le but du ML est de capturer l'information contenue dans une base de donn√©es.
* L'information est synth√©tis√©e √† travers un mod√®le √©tant une fonction des features des donn√©es.
* Diverses t√¢ches sont r√©solues √† l'aide du ML, les principales √©tant la classification, la r√©gression et le clustering.
* Un mod√®le est produit √† l'aide d'algorithmes d'entra√Ænement.
* Divers algorithmes d'entra√Ænements existes, ils sont regroup√©s dans trois cat√©gories : l'apprentissage supervis√©, l'apprentissage non supervis√© et l'apprentissage par renforcement.

## Sources
* [Le chocolat ne rend pas plus intelligent, Chat Septique](https://www.youtube.com/watch?v=z_cACapt3Hc)
* [Tout les mod√®les sont faux, certains sont utiles, Wikipedia](https://fr.abcdef.wiki/wiki/All_models_are_wrong)
* [L'apprentissage supervis√© en 4 √©tapes, Machine Learnia](https://machinelearnia.com/apprentissage-supervise-4-etapes/)
* [Apprentissage supervis√© vs non supervis√©, ActuaIA](https://www.actuia.com/vulgarisation/difference-entre-apprentissage-supervise-apprentissage-non-supervise/)
* [R√©duction de dimensionnalit√©, Data Analytics Post](https://dataanalyticspost.com/Lexique/reduction-de-dimensionnalite/)
* [Dataset d'images de chats et de chiens, Kaggle](https://www.kaggle.com/datasets/tongpython/cat-and-dog)
* [Pour aller plus loin : apprentissage semi-supervis√©, le monde informatique](https://www.lemondeinformatique.fr/les-dossiers/lire-l-apprentissage-semi-supervise-trouve-sa-place-1031.html)